= Assim, toma-se ˆp= x m =

Documentos relacionados
É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

= < 5. O segundo menor valor esperado estimado corresponde à célula (3,3), com Ê33 = 29 30

b χ 2 (a 1)(b 1), sob H 0,

= = Assim, o valor estimado de p será ˆp= x m =

QMRE = n (p+1) R 2. 1 R 2 (p,n (p+1)), sob H 0.

b χ 2 (a 1)(b 1), sob H 0,

β 1 x β j 1 x j 1 + β j (x j +k) β j 1 x j 1 +

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 23 de Janeiro, 2017 SEGUNDO EXAME Uma resolução possível

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Modelos de Regressão Linear Simples - parte III

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 28 de Janeiro, a CHAMADA de EXAME Uma resolução possível

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Modelo de Regressão Múltipla

1 R 2 (p,n (p+1)), sob H 0.

Análise de Regressão EST036

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por

Exercícios - Estatística e Delineamento /16

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

Análise de regressão linear simples. Diagrama de dispersão

Regressão Linear Simples

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma:

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Análise de Regressão Linear Simples e

Capítulo 2. Modelo Linear. J. Cadima (ISA - ULisboa) Estatística e Delineamento / 461

ANÁLISE DE REGRESSÃO

Análise Multivariada Aplicada à Contabilidade

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Associação entre duas variáveis

Capítulo 2. Modelo Linear. J. Cadima (ISA) Estatística e Delineamento / 476

AULA 7 - Inferência em MQO: ICs e Testes de

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

SLIDES DE APOIO. (aulas teóricas) J. Cadima (ISA - ULisboa) Estatística e Delineamento / 461

Capítulo 2. Modelo Linear. J. Cadima (ISA) Estatística e Delineamento / 476

Regressão linear simples

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Exercícios - Estatística e Delineamento

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Modelos de Regressão Linear Simples - parte II

Breve revisão sobre Testes de Hipóteses

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Testes de Hipóteses Paramétricos

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

MIEEC Probabilidades e Estatística 1 a Chamada 10/01/2008. Parte Prática

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Esse material foi extraído de Barbetta (2007 cap 13)

Introdução à probabilidade e estatística II

Probabilidades e Estatística - LEIC + LERCI + LEE 2 o semestre 2004/05

Testes de Hipóteses Paramétricos

Estatística Descritiva SLIDES DE APOIO. A Inferência Estatística (cont.) Inferência Estatística POPULACAO. AMOSTRA (conhecida)

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Exame final Estatística. 26 de Junho de 2003 Maria Helena Almeida

Prova # SUB 15 junho de 2015

SLIDES DE APOIO. (aulas teóricas) J. Cadima (ISA) Estatística e Delineamento / 475

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Testes de Hipóteses: Média e proporção

TESTES DE HIPÓTESES. Lucas Santana da Cunha Universidade Estadual de Londrina

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Regression and Clinical prediction models

a) 19% b) 20% c) Aproximadamente 13% d) 14% e) Qualquer número menor que 20%

Teste de hipóteses Página 1 de 8. Teste de hipóteses

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Prof. Lorí Viali, Dr.

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Probabilidades e Estatística

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Modelos de Regressão Linear Simples - parte I

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Departamento de Matemática - IST(TP)

Inferência estatística

Introdução à probabilidade e estatística II

Correlação e Regressão

Prova # 2 8 junho de 2015

Correlação e Regressão

Primeira Parte. 0, caso contrário.

Estatística e Delineamento

Modelos de Regressão Linear Simples parte I

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Estatística Descritiva SLIDES DE APOIO. A Inferência Estatística (cont.) Inferência Estatística POPULACAO. AMOSTRA (conhecida)

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

AULA 4 - MQO Simples: Propriedades algébricas e Estatísticas

TÓPICOS DE RESOLUÇÃO - Exame de Época de Recurso (Diurno) 2009/2010. Primeira Parte. F (b) F (a) =P (a <X<b) P (a <X<b)=

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto

II.2. Regressão Linear Múltipla

Aula 2 Uma breve revisão sobre modelos lineares

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Econometria II. Notas de bolso! Propriedades da E(.), Var(.) e Cov(.) Temos que (a,b) são constantes e (X,Y) são variáveis aleatórias.

Transcrição:

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO de Outubro, 06 PRIMEIRO TESTE 06-7 Uma resolução possível I Seja X a variável aleatória que conta o número de parcelas onde cada genótipo da casta Tinta Barroca revelou tolerância ao stress abiótico É pedido um teste χ de ajustamento da distribuição de X a uma distribuição Binomial Uma vez que X conta o número de êxitos em três provas (as parcelas associadas a cada genótipo), o parâmetro m da Binomial, que representa o número total de provas, é naturalmente m Quanto ao segundo parâmetro da Binomial, p, que representa a probabilidade (admitida constante) de êxito em cada prova de Bernoulli, no nosso contexto será a probabilidade de haver tolerância em cada parcela Não é dado no enunciado qualquer valor para p, pelo que será estimado a partir dos dados Concretamente, e sabendo que o valor esperado duma va X com distribuição B(m,p) é dado pelo produto E[X mp, podemos estimar p a partir da estimativa de E[X que é a média amostral x do número de parcelas onde houve tolerância Essa média amostral é dada por x (0 )+( 6)+( 7)+( ) 67 09850746 Assim, toma-se ˆp x m 09850746 0858 Hipóteses: H 0 : X B(m, ˆp0858) vs H 0 : X B(m, ˆp0858) Estatística do Teste: É a estatística de Pearson, X (O i Êi), sendo O i o número de observações correspondentes ao valor Xi e Êi os valores esperados ao abrigo da hipótese nula (distribuição Binomial) A distribuição assintótica desta estatística, caso seja verdade H 0, é χ k r com k4 (número de categorias para as quais há contagens) er (número de parâmetros que foi necessário especificar para definir H 0 ) Logo, a distribuição assintótica (cuja validade podemos admitir, tendo em conta o enunciado) será χ Nível de Significância Vamos escolher αp[ Erro do tipo I P[ RejH 0 H 0 verdade 005 Região Crítica: (Unilateral direita) Para um nível de significância α 005, a regra de rejeição deve ser a de rejeitar H 0 se χ calc > χ α[k r χ 005() 59947 Conclusões Como X calc 0894 < 59947, não se rejeitah 0, pelo que se admite a distribuição Binomial referida no enunciado Considerando a classe i, temos que a probabilidade esperada para esse valor de X é, ao abrigo de H 0, dada por ˆπ P[X ( m )ˆp ( ˆp) m ˆp 00540 Assim, o número esperado de genótipos (de entre o total de N 67 observados) para os quais há sempre tolerância (X ) é estimado por Ê N ˆπ 67 0054 70 Esta categoria de contagens contribui com uma parcela de valor (O Ê) para o valor calculado da estatística do teste, X Tem-se (O Ê) Ê ( 70) Ê 70 00585 Rigorosamente falando, o valor estimado que foi calculado (Ê70) significa que o critério de Cochran não se verifica, uma vez que mais de 0% das contagens esperadas (pelo menos 5%) são inferiores a 5 No entanto, no enunciado era dito para se admitir a validade da distribuição assintótica, não sendo pedida a discussão do critério de Cochran Como não se verifica a rejeição de H 0, não faz grande sentido discutir quais as parcelas que mais contribuem para o (pequeno, e não significativo) valor de Xcalc i0 Ê i

II (a) O gráfico da esquerda corresponde a uma relação de tipo hiperbólico entre as variáveis originais x e y De facto, se admitimos a linearidade entre y y e x x, temos y b 0+b x y b 0 +b x O gráfico da direita corresponde a admitir que a relação entre as variáveis originais x e y é de tipo potência De facto, admitir a linearidade entre y ln(y) e x ln(x) corresponde a ter: ln(y) b 0 +b ln(x) e ln(y) e b 0+b ln(x) y e b 0 a e b ln(x) ae lnxb ax b (b) Embora se possa admitir uma tendência linear de fundo nas duas nuvens de pontos, objectivos inferenciais serão melhor atingidos com a transformação linearizante que gerou o gráfico da direita De facto, no gráfico da esquerda a dispersão dos pontos em torno da tendência linear de fundo parece ter variabilidade que não é homogénea, e vai crescendo à medida que aumenta o número de frutos nos tomateiros Esta tendência irá reflectir-se na existência dum efeito em forma de funil no gráfico de resíduos contra valores ajustados ŷ i, e sugere a violação do pressuposto das variâncias constantes dos erros aleatórios que é parte integrante do modelo de regressão linear Em contrapartida, o gráfico da direita sugere que a variabilidade dos pontos em torno da recta de regressão é constante, o que estará em consonância com a hipótese de variâncias homogéneas dos erros aleatórios Por outro lado, na nuvem de pontos da esquerda há relativamente poucos pontos na metade direita do gráfico, o que sugere que esses pontos terão uma influência grande no ajustamento da recta, com elevados valores da distância de Cook Assim, será mais adequado trabalhar com a transformação linearizante que gerou o gráfico da direita, ou seja, será melhor admitir que a relação entre o peso médio dos frutos dum tomateiro e o número de frutos desse tomateiro, segue uma relação potência (decrescente) (a) O coeficiente de determinação é R 0760, o que significa que a regressão linear explica cerca de 76% da variabilidade nos valores observados do log-peso do fruto Este valor é razoavelmente bom, e é significativamente diferente do valor R 0 associado ao Modelo Nulo, como se pode verificar através dum teste F de ajustamento global: Hipóteses: H 0 : R 0 vs H : R > 0 Estatística do Teste: F QMR QMRE (n ) R F R (,n ), sob H 0 Nível de significância: α P[ Erro do tipo I P[ Rej H 0 H 0 verdade 005 Região Crítica: (Unilateral direita) Rejeitar H 0 se F calc > f α[,7 40 (entre os valores tabelados 47 e 408) Conclusões: No enunciado está omisso o valor calculado da estatística F Usando a segunda das expressões acima indicadas para essa estatística, tem-se F calc 7 0760 0760 7596 40 Logo há uma clara rejeição de H 0, ie, usar a recta de regressão para prever o log-peso do fruto a partir do log-número de frutos no tomateiro é significativamente melhor do que considerar que esse log-peso do fruto tem apenas variação aleatória, não explicada pelo número de frutos na planta (b) Numa regressão linear simples, o coeficiente de determinação é o quadrado do coeficiente de correlação amostral entre o preditor (no nosso caso log(nfrutos), x ) e a variável resposta (no nosso caso log(pesofruto), y ) Logo, o coeficiente de correlação amostral r x y é

uma das raízes quadradas do coeficiente de determinação, que é indicado na listagem: R 0760 Tendo em conta que o declive da recta (que tem sempre o mesmo sinal que o coeficiente de correlação) é negativo, a raíz relevante de R é a raíz negativa: r x y R 0760 087 (c) O declive da recta de regressão, b 0986 é a variação média nos log-pesos dos frutos (variável resposta y da recta) associada a aumentar em uma unidade o log-número dos frutos (variável preditora x na recta) A transformação utilizada corresponde à transformação linearizante dum modelo potência y ax b com (como se viu na alínea a) b 0986 Assim, a relação ajustada corresponde a dizer que o peso médio dos frutos dum tomateiro é proporcional à potência 04 (aproximadamente) do número de frutos ou, de forma equivalente, que o peso médio dos frutos dum tomateiro é inversamente proporcional ao número de frutos elevado à potência /5 (d) As fórmulas dos parâmetros da recta de regressão podem ser usadas para obter os valores pedidos De facto, para a recta de regressão relacionando y ln(y) e x ln(x), temos b 0 y b x Logo, no nosso caso tem-se 69557 ( 0986)x, pelo que x 69 557 0986 575 Por outro lado, o declive da recta ajustada é dado por b cov x y s x r x y s y s x, pelo que s x r x y s y b No nosso caso, tem-se s 055667 x 0760 07695 ( 0986) (e) Um intervalo a ( α) 00% de confiança para β é dado por: [ b tα (n ), b ˆσˆβ +tα (n ) ˆσˆβ Sabemos pela listagem no enunciado que b 0986 (valor que tem de ser o ponto central do intervalo de confiança), e ˆσˆβ 0066 Para um intervalo a 95% de confiança, α005, e t 005(7) 05 (entre os valores tabelados 04 e 0) O IC pedido será então 04675, 00[ Assim, podemos afirmar com 95% de confiança que o declive da recta populacional é um dos valores deste intervalo Tendo em conta a resposta na alínea a), pode afirmar-se que o peso médio dos frutos de tomateiros é proporcional ao número de frutos elevado a uma potência neste intervalo ou, de forma equivalente, inversamente proporcional ao número de frutos elevado a uma potência no intervalo 00,04675[ (f) Pede-se um intervalo de predição (95%) para um valor de y (pesofruto) associado ao valor de nfrutos x 0 Com base na recta de regressão entre as variáveis logaritmizadas pode construir-se um intervalo de predição para y ln(y), que corresponde a um valor logaritmizado x ln(0)9957 Pelo formulário, sabemos que este intervalo de predição tem [ extremos: (b 0 +b x )±t 005(n ) QMRE + n + (x x ), sendo conhecidos a partir (n )s x do enunciado os seguintes valores: b 0 69, b 0986, QMRE0958, n9, x 575, s x 07695 Assim, b 0+b ln(0)5494 Já se viu quet 005(7) 05 [ A expressão do erro padrão dá QMRE + n + (x x ) 0988879 Logo, o intervalo (n )s x de predição para o log-peso dos frutos dum tomateiro com x0 frutos é 47467, 555[ Para obter um intervalo para o peso dos frutos (em g) será necessário exponenciar estes extremos, obtendo-se o intervalo de predição 599, 57795 [ Assim pode afirmar-se que 95% dos tomateiros com 0 frutos terão peso médio dos seus frutos neste intervalo

III É dado o modelo de regressão linear simples em contexto inferencial (a) Sabemos pelo formulário que a variância do estimador ˆβ é σ ˆβ σ Este valor é (n )s x estimado por ˆσ ˆβ QMRE Sabemos ainda (adaptando o enunciado do Exercício 5d das (n )s x aulas práticas ao contexto inferencial), que SQR ˆβ (n )s x e que, numa regressão linear simples, SQR QMR Logo, tem-se ˆσ ˆβ QMRE QMR ˆβ QMR ˆβ F, onde F QMR QMRE é ˆβ QMRE a estatística do teste F de ajustamento global Assim, o valor calculado de σ ˆβ é b F calc Alternativamente, e tendo em conta o resultado do Exercício 6, sabemos que o valor calculado da estatística do teste F de ajustamento global é o quadrado do valor da estatística T ˆβ β H0 num teste a que H 0 : β 0 Mas nesse caso, tem-se F T ˆβ e, ˆσˆβ ˆσ ˆβ re-arrumando igualdade, obtém-se a expressão indicada no enunciado (b) A expressão do estimador dada no enunciado, ˆβ n c i Y i, salienta que ˆβ é uma combinação linear das n observações da variável resposta, Y i Uma das primeiras conclusões do modelo de regressão linear simples é a de que estas n variáveis aleatórias têm distribuição Normal (mais concretamente, N ( β 0 +β x i, σ ) ) e são independentes Sabe-se ainda que qualquer combinação linear de Normais independentes é ainda Normal, pelo que apenas falta calcular os respectivos parâmetros, ou seja o valor esperado E[ˆβ e a variância V[ˆβ Ora, pelas propriedades dos valores esperados, tem-se: [ E[ˆβ E c i Y i i c i E[Y i i i i c i (β 0 +β x i ) β 0 c i +β c i x i i i E[Y i O enunciado afirma que o segundo somatório tem valor Quanto ao primeiro somatório, facilmente se conclui (tendo em conta a expressão dos coeficientes c i dada no formulário e ainda o Exercício a)) que: c i i x i x (n )s x (n )s x i (x i x) 0 i } {{ } 0 Logo, E[ˆβ β Tendo em conta as propriedades da variância, a independência dos Y i s e o facto acima referido de V[Y i σ, i, tem-se: [ V[ˆβ V c i Y i V[c i Y i c i V[Y i σ c i i i i σ i Mas c i i xi x (n )s x [(n )s x i (x i x) (n )s i x (n )s x Logo, V[ˆβ σ, completando assim a demonstração Este resultado tem a seguinte (n )s x interpretação intuitiva: caso fossem seleccionadas todas as possíveis amostras aleatórias 4

de dimensão n (com os n valores x i fixados pelo experimentador), e para cada uma fosse calculada a correspondente estimativa b do declive da recta, o diagrama ( de frequências ) dos σ valores do declive resultantes seria dado pela curva Gaussiana N β, (n )s Assinale-se x ainda que o estimador ˆβ é um estimador centrado (não enviesado) e que a sua variância diminui com o aumento da dimensão da amostra (n) e da variância amostral dos x i (s x ) NOTA: Esta demonstração foi feita nas aulas teóricas, e está afixada na página web da disciplina, na secção dos materiais de apoio relativos às aulas teóricas Num contexto apenas descritivo, demonstremos dois importantes resultados correspondentes ao coeficiente de determinação duma regressão linear simples (a) Por definição, R SQR SQT Tendo em conta que SQT (n )s y e que (Exercício 5d)) SQRb (n )s x, tem-se R b s x Mas, por definição, b s covxy y s Substituindo, vem x R cov xy covxy (rxy s x s y s xs y ) (b) Os valores ajustados ŷ i são dados por uma mesma transformação linear (afim) dos valores do preditor: ŷ i b 0 +b x i São conhecidas as propriedades destas transformações sobre a covariância e a variância Assim, ryŷ covyŷ cov y,b 0 +b x s y sŷ s ys b 0 +b x (b cov y,x ) s yb s x b cov xy b s xs y r xy R Assim, o coeficiente de determinação duma regressão linear simples é também o quadrado do coeficiente de correlação linear entre os valores observados e os valores ajustados de y Esta propriedade estende-se às regressões lineares múltiplas, embora seja necessário adaptar a justificação 5